【完结】总结12大CNN主流模型架构设计思想

From: 言有三有三AI 2019-12-26

专栏《CNN模型解读》正式完结了，在这一个专栏中，我们给大家回顾了深度学习中的各类具有代表性的CNN模型，详细分析了各类模型的特点，设计思想。当然，这一个系列不可能包含所有的模型，但是我们可以从中洞见最核心的思想。如果有必要，以后我们还会进行补充的。

作者 | 言有三

编辑 | 言有三

从LeNet5到VGG

LeNet5不是CNN的起点，但却是它的hello world，让大家看到了卷积神经网络商用的前景。

AlexNet是CNN向大规模商用打响的第一枪，夺得ImageNet 2012年分类冠军，宣告神经网络的王者归来。VGG以其简单的结构，在提出的若干年内在各大计算机视觉领域都成为了最广泛使用的benchmark。

它们都有着简单而又优雅的结构，同出一门。诠释了增加深度是如何提高了深度学习模型的性能。详细解读如下：

【模型解读】从LeNet到VGG，看卷积+池化串联的网络结构

1*1卷积

1*1卷积本身只是N*N卷积的卷积核半径大小退化为1时的特例，但是由于它以较小的计算代价增强了网络的非线性表达能力，给网络结构在横向和纵向拓展提供了非常好的工具，常用于升维和降维操作，尤其是在深层网络和对计算效率有较高要求的网络中广泛使用。

详细解读如下：

【模型解读】network in network中的1*1卷积，你懂了吗

GoogLeNet

GoogLeNet夺得ImageNet2014年分类冠军，也被称为Inception V1。Inception V1有22层深，参数量为5M。同一时期的VGGNet性能和Inception V1差不多，但是参数量却远大于Inception V1。Inception的优良特性得益于Inception Module，结构如下图：

由1*1卷积，3*3卷积，5*5卷积，3*3最大池化四个并行通道运算结果进行融合，提取图像不同尺度的信息。如果说VGG是以深度取胜，那么GoogLeNet可以说是以宽度取胜，当然1*1卷积起到了很大的作用，这一点在SqueezeNet中也很关键。详细解读如下：

【模型解读】GoogLeNet中的inception结构，你看懂了吗

MobileNets

脱胎于Xception的网络结构MobileNets使用Depthwise Separable Convolution(深度可分离卷积)构建了轻量级的28层神经网络，成为了移动端上的高性能优秀基准模型。

一个depthwise convolution，专注于该通道内的空间信息，一个pointwise convolution，专注于跨通道的信息融合，两者共同努力，然后强大，在此基础上的一系列模型如shufflenet等都是后话。详细解读如下：

【模型解读】说说移动端基准模型MobileNets

残差网络

当深层网络陷身于梯度消失等问题而导致不能很有效地训练更深的网络时，脱胎于highway network的残差网络应运而生，附带着MSRA和何凯明的学术光环，诠释了因为简单，所以有效，但你未必能想到和做到的朴素的道理。

详细解读如下：

【模型解读】resnet中的残差连接，你确定真的看懂了？

非正常卷积

谁说卷积一定要规规矩矩四四方方呢？MSRA总是一个出新点子的地方，在spatial transform network和active convolution的铺垫下，可变形卷积deformable convolution network如期而至。